61 research outputs found

    Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes

    Get PDF
    In this thesis, we study sequential prediction problems. The goal is to devise and apply automatic strategy, learning from the past, with potential help from basis predictors. We desire these strategies to have strong mathematical guarantees and to be valid in the most general cases. This enables us to apply the algorithms deriving from the strategies to meteorological data predictions. Finally, we are interested in theoretical and practical versions of this sequential prediction framework to cumulative density function prediction. Firstly, we study online prediction of bounded stationary ergodic processes. To do so, we consider the setting of prediction of individual sequences and propose a deterministic regression tree that performs asymptotically as well as the best L-Lipschitz predictor. Then, we show why the obtained regret bound entails the asymptotical optimality with respect to the class of bounded stationary ergodic processes. Secondly, we propose a specific sequential aggregation method of meteorological simulation of mean sea level pressure. The aim is to obtain, with a ridge regression algorithm, better prediction performance than a reference prediction, belonging to the constant linear prediction of basis predictors. We begin by recalling the mathematical framework and basic notions of environmental science. Then, the used datasets and practical performance of strategies are studied, as well as the sensitivity of the algorithm to parameter tuning. We then transpose the former method to another meteorological variable: the wind speed 10 meter above ground. This study shows that the wind speed exhibits different behaviors on a macro level. In the last chapter, we present the tools used in a probabilistic prediction framework and underline their merits. First, we explain the relevancy of probabilistic prediction and expose this domain's state of the art. We carry on with an historical approach of popular probabilistic scores. The used algorithms are then thoroughly described before the descriptions of their empirical results on the mean sea level pressure and wind speed.Dans cette thèse, nous nous intéressons à des problèmes de prévision tour après tour. L'objectif est d'imaginer et d'appliquer des stratégies automatiques, qui tirent de l'expérience du passé et s'aident éventuellement de prédicteurs élémentaires. Nous souhaitons que ces stratégies obtiennent des garanties mathématiques robustes et soient valables dans des cas de figure très généraux. Cela nous permet en pratique d'appliquer les algorithmes qui en découlent à la prévision concrète de grandeurs météorologiques. Enfin, nous nous intéressons aux déclinaisons théoriques et pratiques dans un cadre de prévision de fonctions de répartition. Nous étudions dans un premier temps la prévision séquentielle de processus bornés stationnaires ergodiques. Dans ce but, nous nous plaçons dans le cadre des suites individuelles et proposons un arbre de régression déterministe dont les prévisions sont asymptotiquement meilleures que le meilleur prédicteur lipschitzien pour une certaine constante L. Puis nous montrons que les bornes de regret obtenues impliquent que les stratégies envisagées sont asymptotiquement optimales par rapport à la classe des processus stationnaire ergodique bornés. Dans un second temps, nous présentons une méthode d'agrégation séquentielle des simulations météorologiques de pression réduite au niveau de la mer. L'objectif est d'obtenir, grâce à l'algorithme ridge, de meilleures performances en prévision qu'une certaine prévision de référence, à préciser. Tout d'abord, nous rappelons le cadre mathématique et les fondamentaux des sciences environnementales. Puis nous décrivons en détail les jeux de données utilisés et les performances pratiques de l'algorithme. Enfin, nous précisons certains aspects du jeu de données et certaines sensibilités aux paramètres l'algorithme ridge. Puis, nous déclinons la méthode précédente à l'étude d'une seconde grandeur physique : la norme de la vitesse du vent à dix mètres au-dessus du sol. Plusieurs remarques d'ordre physique sont faites au passage concernant ce jeu de données. Dans le dernier chapitre, nous présentons les enjeux et les outils de la prévision probabiliste avant de mettre en pratique deux algorithmes sur les jeux de données décrits précédemment. La première partie motive l'utilisation de prévisions probabilistes et expose l'état de l'art dans ce domaine et la seconde partie présente des scores probabilistes historiques et populaires. Les algorithmes utilisés sont ensuite décrits dans la troisième partie avant que ne soient détaillés les résultats empiriques de ceux-ci sur les jeux de données de pression réduite au niveau de la mer et de norme de la vitesse du vent

    Inégalités d'oracle et mélanges

    Get PDF
    This manuscript focuses on two functional estimation problems. A non asymptotic guarantee of the proposed estimator’s performances is provided for each problem through an oracle inequality.In the conditional density estimation setting, mixtures of Gaussian regressions with exponential weights depending on the covariate are used. Model selection principle through penalized maximum likelihood estimation is applied and a condition on the penalty is derived. If the chosen penalty is proportional to the model dimension, then the condition is satisfied. This procedure is accompanied by an algorithm mixing EM and Newton algorithm, tested on synthetic and real data sets. In the regression with sub-Gaussian noise framework, aggregating linear estimators using exponential weights allows to obtain an oracle inequality in deviation,thanks to pac-bayesian technics. The main advantage of the proposed estimator is to be easily calculable. Furthermore, taking the infinity norm of the regression function into account allows to establish a continuum between sharp and weak oracle inequalities.Ce manuscrit se concentre sur deux problèmes d'estimation de fonction. Pour chacun, une garantie non asymptotique des performances de l'estimateur proposé est fournie par une inégalité d'oracle. Pour l'estimation de densité conditionnelle, des mélanges de régressions gaussiennes à poids exponentiels dépendant de la covariable sont utilisés. Le principe de sélection de modèle par maximum de vraisemblance pénalisé est appliqué et une condition sur la pénalité est établie. Celle-ci est satisfaite pour une pénalité proportionnelle à la dimension du modèle. Cette procédure s'accompagne d'un algorithme mêlant EM et algorithme de Newton, éprouvé sur données synthétiques et réelles. Dans le cadre de la régression à bruit sous-gaussien, l'agrégation à poids exponentiels d'estimateurs linéaires permet d'obtenir une inégalité d'oracle en déviation, au moyen de techniques PAC-bayésiennes. Le principal avantage de l'estimateur proposé est d'être aisément calculable. De plus, la prise en compte de la norme infinie de la fonction de régression permet d'établir un continuum entre inégalité exacte et inexacte

    Traitement et Analyse de Données avec le Langage R

    Get PDF
    To date, Open-source softwares are gradually emerging as credible alternatives to "owners" softwares in the field of management of voluminous data. Among this panoply of free softwares, there is R, a software that can be considered both as a pure programming software but also as a data processing and statistical data analysis tools. This manuscript aims to introduce the R language in an approach exclusively based on practical examples. The document is organized into five chapters. The first chapter introduces the basic concepts of programming with the R language. The second chapter presents the various data processing and data organization methods. The third chapter is devoted to the implementation of classical statistical and econometric analyses methods. The fourth chapter is dedicated to the presentation of data visualization methods in R. The final chapter presents the methods of time series analysis including seasonal adjustment methods, linear smoothing, exponentials smoothing but also the modeling and forecasts by stochastic methods (AR, MA, ARMA, ARIMA and SARIMA)

    Prédiction génétique des caractères complexes

    Get PDF
    L'objectif de cette thèse est le développement des approches statistiques pour la prédiction génétique de caractères complexes. Quatre approches adaptées à différentes situations génétiques, sont développées. En situation d'additivité, un modèle linéaire qui combine les données de transmission génétique avec des marqueurs SNP se révèle utile quand les SNP ne capturent pas l'ensemble des effets génétiques influençant le caractère. En situation des effets génétiques non-linéaires, une méthode de régression à noyaux (Nadaraya-Watson) produit des prédictions plus précises que celles données par la méthode standard (BLUP). Après cette comparaison entre méthodes paramétriques et non paramétriques, il est utile de les faire coopérer entre eux : une méthode d'agrégation statistique s'est révélée efficiente et robuste pour le mélange de prédicteurs. Enfin, un algorithme original de projections aléatoires de modèles linéaires permet de retrouver rapidement les paramètres du modèle, dans le cas où celui-ci est parcimonieux.The objective of this thesis is the development of statistical approaches for genetic prediction of complex traits. Four approaches are developed, adapted to different genetic contexts. Under additivity, a linear model combining transmission and SNP marker data is useful when the SNP do not capture all genetic effects influencing the trait. Under nonlinear genetic effects, a kernel regression method (Nadaraya-Watson) yields more precise predictions than the standard method (BLUP). After the comparison of parametric vs. Nonparametric methods, we propose to combine methods : a statistical aggregation method is efficient and robust to mix several predictors. Finally, an original algorithm of random projections of linear models allows rapid recovery of parsimonious model parameters

    Agrégation de prédicteurs pour des séries temporelles, optimalité dans un contexte localement stationnaire

    Get PDF
    This thesis regroups our results on dependent time series prediction. The work is divided into three main chapters where we tackle different problems. The first one is the aggregation of predictors of Causal Bernoulli Shifts using a Bayesian approach. The second one is the aggregation of predictors of what we define as sub-linear processes. Locally stationary time varying autoregressive processes receive a particular attention; we investigate an adaptive prediction scheme for them. In the last main chapter we study the linear regression problem for a general class of locally stationary processes.Cette thèse regroupe nos résultats sur la prédiction de séries temporelles dépendantes. Le document comporte trois chapitres principaux où nous abordons des problèmes différents. Le premier concerne l’agrégation de prédicteurs de décalages de Bernoulli Causales, en adoptant une approche Bayésienne. Le deuxième traite de l’agrégation de prédicteurs de ce que nous définissions comme processus sous-linéaires. Une attention particulaire est portée aux processus autorégressifs localement stationnaires variables dans le temps, nous examinons un schéma de prédiction adaptative pour eux. Dans le dernier chapitre nous étudions le modèle de régression linéaire pour une classe générale de processus localement stationnaires

    Outils microfluidiques pour la maladie d'Alzheimer : étude de l'agrégation de l'amyloïde-bêta

    Get PDF
    Le vieillissement de nos sociétés provoque une augmentation du nombre de personnes atteintes de maladies neuro-dégénératives telles que la maladie d'Alzheimer (5% des plus de 65 ans et 15% des plus de 85 ans) ou de Parkinson. Les personnes atteintes nécessitent un suivi et une prise en charge importante de la part de leurs proches ou d'organismes spécialisés. Face à ce constat, il apparaît nécessaire de mieux appréhender les mécanismes de développement de ces maladies qui sont encore méconnus, dans le but final de trouver des traitements efficaces. La maladie d'Alzheimer est caractérisée par des pertes neuronales et synaptiques dans des zones précises du cerveau ce qui induirait les troubles de la mémoire et du comportement observés chez les malades. L'une des hypothèses, pour expliquer ces lésions cérébrales, est l'agrégation d'une protéine au niveau neuronal, l'amyloïde-bêta. Ces agrégats vont conduire à la mort neuronale, probablement par divers mécanismes. L'agrégation de cette protéine forme des plaques séniles en surfaces des neurones, une des caractéristiques de la maladie d'Alzheimer. De nombreuses études, s'appuyant sur des méthodes classiques de la biochimie, ont permis de montrer que de multiples facteurs influaient sur le mécanisme d'agrégation (concentration en amyloïde-beta, pH, présence d'ions métalliques et autre composés, température, propriétés des surfaces). De plus, la cinétique d'agrégation est dynamique, complexe, difficilement contrôlable par les outils classiques de la biologie moléculaire. Dans ce contexte, cette thèse présente une approche originale, basée sur l'utilisation de l'outil microfluidique (manipulation de fluides au sein de systèmes microfabriqués), pour appréhender ce problème. Pour cela, nous avons développé deux types de puces microfluidiques complémentaires. La première a pour but de cribler différentes conditions réactionnelles afin de connaître les facteurs importants et les seuils de concentration critiques. Dans ce but, nous avons réalisé des systèmes permettant de réaliser des gradients de concentration linéaire, grâce auxquels nous avons essentiellement testé l'impact de la concentration en amyloïde-bêta sur l'agrégation. Ces expériences nous ont permis de montrer l'existence d'un seuil de concentration. La seconde approche est complémentaire de la première, elle a pour but de s'intéresser à la cinétique de réaction. Les puces sont basées sur le principe de réaction-diffusion, cela nous permet de mesurer tout d'abord le coefficient de diffusion du peptide seul (sans agrégation) puis durant l'agrégation. La comparaison des deux situations nous renseigne sur la taille des agrégats. Ces expériences nous ont permis de mesurer le coefficient de diffusion pour différentes molécules (fluorescéine, rhodamine B) et peptides modèles. Concernant l'agrégation, l'adsorption de la protéine sur les parois des canalisations limite encore l'interprétation de nos expériences préliminaires en termes de cinétique. A travers cette thèse, nous avons développé des outils microfluidiques permettant l'étude de l'agrégation de l'amyloïde-bêta. D'une part, nous avons réalisé un système permettant le criblage de nombreuses conditions réactionnelles qui peut être appliqué au domaine du génie chimique. D'autre part, une configuration de réaction-diffusion vise à remonter à la cinétique d'agrégation. La principale limitation actuelle des systèmes est le contrôle des conditions d'adsorption des protéines sur les parois.The aging of our society leads to a development of neurodegenerative disease like Alzheimer's disease. Patients require an important caring by their family and specialized organisms. Moreover, the mechanisms which lead to the disease are not very well known yet, and progresses in the understanding of these should help to find new treatment. Memory and compartmental troubles associated to Alzheimer's disease come from neuronal and synaptic losses. A scenario proposed to explain those losses is the aggregation of a small protein, beta-amyloid, in neuronal area. It leads to the formation of senile sheets at neuron surface which is characteristic of Alzheimer's disease. The reaction is multifactor: it is influenced by beta-amyloid concentration, metallic ions, temperature, surface's property. Furthermore, the classical tools of biochemistry can hardly assess the first kinetic steps of aggregation. In this context, this thesis describes original microfluidic tools to study beta-amyloid aggregation, according to two approaches. In the first one, concentration gradients combined to on-chip triggering of the aggregation enable screening reaction's conditions. We have essentially tested the impact of beta-amyloid concentration and we show a concentration threshold. The second design is devoted to studying the reaction kinetics. We used reaction-diffusion chip to measure the diffusion coefficient with and without aggregation. It should enable measuring the evolution of the size of aggregates. We have successfully determined the diffusion coefficient for some model beta-amyloid peptides. However, in aggregating conditions, adsorption of the peptide on the wall still prevents quantitative interpretation of our experiments. With this thesis, we have developed microfluidics tools to study beta-amyloid aggregation. In the first part we develop a chip able to screen many reaction conditions. In the second part, we make reaction-diffusion chip to have information about aggregation's kinetics. The main limitation of this chip is the control of peptide interaction with surfaces

    Arbres CART et Forêts aléatoires,Importance et sélection de variables

    Get PDF
    Two algorithms proposed by Leo Breiman : CART trees (Classification And Regression Trees for) introduced in the first half of the 80s and random forests emerged, meanwhile, in the early 2000s, are the subject of this article. The goal is to provide each of the topics, a presentation, a theoretical guarantee, an example and some variants and extensions. After a preamble, introduction recalls objectives of classification and regression problems before retracing some predecessors of the Random Forests. Then, a section is devoted to CART trees then random forests are presented. Then, a variable selection procedure based on permutation variable importance is proposed. Finally the adaptation of random forests to the Big Data context is sketched.Deux des algorithmes proposés par Leo Breiman : les arbres CART (pour Classification And Regression Trees) introduits dans la première moitié des années 80 et les forêts aléatoires apparues, quant à elles, au début des années 2000, font l'objet de cet article. L'objectif est de proposer sur chacun des thèmes abordés, un exposé, une garantie théorique, un exemple et signaler variantes et extensions. Après un préambule, l'introduction rappelle les objectifs des problèmes de classification et de régression avant de retracer quelques prédécesseurs des forêts aléatoires. Ensuite, une section est consa-crée aux arbres CART puis les forêts aléatoires sont présentées. Ensuite, une procédure de sélection de variables basée sur la quantification de l'importance des variables est proposée. Enfin l'adaptation des forêts aléatoires au contexte du Big Data est esquissée

    Modélisation de la dépendance et estimation du risque agrégé

    Get PDF
    This thesis comprises three essays on estimation methods for the dependence between risks and its aggregation. In the first essay we propose a new method to estimate high level quantiles of sums of risks. It is based on the estimation of the ratio between the VaR (or TVaR) of the sum and the VaR (or TVaR) of the maximum of the risks. We use results on regularly varying functions. We compare the efficiency of our method with classical ones, on several models. Our method gives good results when approximating the VaR or TVaR in high levels on strongly dependent risks where at least one of the risks is heavy tailed. In the second essay we propose an estimation procedure for the distribution of an aggregated risk based on the checkerboard copula. It allows to get good estimations from a (quite) small sample of the multivariate law and a full knowledge of the marginal laws. This situation is realistic for many applications. Estimations may be improved by including in the checkerboard copula some additional information (on the law of a sub-vector or on extreme probabilities). Our approach is illustrated by numerical examples. In the third essay we propose a kernel based estimator for the spectral measure density of a bivariate distribution with regular variation. An extension of our method allows to estimate discrete spectral measures. Some convergence properties are obtainedCette thèse porte sur l'étude de la modélisation et estimation de la dépendance des portefeuilles de risques et l'estimation du risque agrégé. Dans le Chapitre 2, nous proposons une nouvelle méthode pour estimer les quantiles de haut niveau pour une somme de risques. Elle est basée sur l'estimation du rapport entre la VaR de la somme et la VaR du maximum des risques. Nous utilisons des résultats sur les fonctions à variation régulière. Nous comparons l'efficacité de notre méthode avec quelques estimations basées sur la théorie des valeurs extrêmes, sur plusieurs modèles. Notre méthode donne de bons résultats lors de l'approximation de la VaR à des niveaux élevés lorsque les risques sont fortement dépendants et au moins l'un des risques est à queue épaisse. Dans le Chapitre 3, nous proposons une procédure d'estimation pour la distribution d'un risque agrégé basée sur la copule échiquier. Elle permet d'obtenir de bonnes estimations à partir d'un petit échantillon de la loi multivariée et une connaissance complète des lois marginales. Cette situation est réaliste pour de nombreuses applications. Les estimations peuvent être améliorées en incluant dans la copule échiquier des informations supplémentaires (sur la loi d'un sous-vecteur ou sur des probabilités extrêmes). Notre approche est illustrée par des exemples numériques. Finalement, dans le Chapitre 4, nous proposons un estimateur de la mesure spectrale basé sur l'estimation à noyau de la densité de la mesure spectrale d'une distribution à variation régulière bivariée. Une extension de notre méthode permet d'estimer la mesure spectrale discrète. Certaines propriétés de convergence sont obtenue

    Stabilisation de nanoparticules dans l'eau par des copolymères à blocs

    Get PDF
    Dans ce travail on a développé une nouvelle stratégie de stabilisation de nanoparticules dans l'eau. Cette stratégie se base sur l'utilisation de copolymères amphiphiles, capables de s'auto-organiser autour des nanoparticules. Comme modèle on a choisi des copolymères à blocs (diblocs et triblocs) à base de poly(oxyéthylène) et de poly(oxypropylène). La stabilisation de nanoparticules d'or a pu être étudiée grâce à leurs propriétés optiques. On a démontré que la présence et la longueur de la chaîne hydrophobe sont essentielles pour la stabilisation. Ensuite, différentes techniques d'analyse (DDL, MET, SANS, Cryo-MET...) ont permis de montrer que les copolymères s'adsorbent à la surface des nanoparticules, même en l'absence de micelle en solution (C<CMC). Enfin, nous démontrons la faible cytotoxicité des nanoparticules stabilisées par ces polymères. Mots clés : stabilisation dans l'eau, polymères à blocs, nanoparticules d'or, résonnance plasmon de surface, nanostructure, cytotoxicité.We have developed a new strategy to stabilize nanoparticles in water. This strategy is based on the use of amphiphilic copolymers capable to self-assemble around the nanoparticles. We have chosen amphiphilic neutral block copolymers (diblocks and triblocks) based on poly(ethylene oxide) and poly(propylene oxide) to test this strategy. The aggregation state of gold nanoparticles has been studied using their optical properties. We have shown that the presence of a hydrophobic chain and its length are essential for the stability. Different techniques such as (DLS, TEM, cryo-TEM, and SANS...) have shown that in the presence of AuNps, under conditions in which micelles are not formed (C < CMC), polymer is adsorbed on AuNps forming large globules. Finally, we have demonstrated a low cytotoxicity effect of nanoparticles stabilized by these polymers. Keywords: stabilization in water, block copolymers, gold nanoparticles, surface plasmon resonance band, nanostructure, cytotoxicity

    Optimisation des horaires des agents et du routage des appels dans les centres d’appels

    Full text link
    Nous étudions la gestion de centres d'appels multi-compétences, ayant plusieurs types d'appels et groupes d'agents. Un centre d'appels est un système de files d'attente très complexe, où il faut généralement utiliser un simulateur pour évaluer ses performances. Tout d'abord, nous développons un simulateur de centres d'appels basé sur la simulation d'une chaîne de Markov en temps continu (CMTC), qui est plus rapide que la simulation conventionnelle par événements discrets. À l'aide d'une méthode d'uniformisation de la CMTC, le simulateur simule la chaîne de Markov en temps discret imbriquée de la CMTC. Nous proposons des stratégies pour utiliser efficacement ce simulateur dans l'optimisation de l'affectation des agents. En particulier, nous étudions l'utilisation des variables aléatoires communes. Deuxièmement, nous optimisons les horaires des agents sur plusieurs périodes en proposant un algorithme basé sur des coupes de sous-gradients et la simulation. Ce problème est généralement trop grand pour être optimisé par la programmation en nombres entiers. Alors, nous relaxons l'intégralité des variables et nous proposons des méthodes pour arrondir les solutions. Nous présentons une recherche locale pour améliorer la solution finale. Ensuite, nous étudions l'optimisation du routage des appels aux agents. Nous proposons une nouvelle politique de routage basé sur des poids, les temps d'attente des appels, et les temps d'inoccupation des agents ou le nombre d'agents libres. Nous développons un algorithme génétique modifié pour optimiser les paramètres de routage. Au lieu d'effectuer des mutations ou des croisements, cet algorithme optimise les paramètres des lois de probabilité qui génèrent la population de solutions. Par la suite, nous développons un algorithme d'affectation des agents basé sur l'agrégation, la théorie des files d'attente et la probabilité de délai. Cet algorithme heuristique est rapide, car il n'emploie pas la simulation. La contrainte sur le niveau de service est convertie en une contrainte sur la probabilité de délai. Par après, nous proposons une variante d'un modèle de CMTC basé sur le temps d'attente du client à la tête de la file. Et finalement, nous présentons une extension d'un algorithme de coupe pour l'optimisation stochastique avec recours de l'affectation des agents dans un centre d'appels multi-compétences.We study the management of multi-skill call centers, with multiple call types and agent groups. A call center is a very complex queueing system, and we generally need to use simulation in order to evaluate its performances. First, we develop a call center simulator based on the simulation of a continuous-time Markov chain (CTMC) that is faster than traditional discrete-event simulation. Using an uniformization method, this simulator simulates the embedded discrete-time Markov chain of the CTMC. We propose strategies to use this simulator efficiently within a staffing optimization algorithm. In particular, we study the use of common random numbers. Secondly, we propose an algorithm, based on subgradient cuts and simulation, to optimize the shift scheduling problem. Since this problem is usually too big to be solved as an integer programming problem, we relax the integer variables and we propose methods to round the solutions. We also present a local search to improve the final solution. Next, we study the call routing optimization problem. We propose a new routing policy based on weights, call waiting times, and agent idle times or the number of idle agents. We develop a modified genetic algorithm to optimize all the routing parameters. Instead of doing mutations and crossovers, this algorithm refines the parametric distributions used to generate the population of solutions. We also develop a staffing algorithm based on aggregation, queueing theory and delay probability. This heuristic algorithm is fast, because it does not use simulation. The service level constraint is converted into a delay probability constraint. Moreover, we propose a variant of a CTMC model based on the waiting time of the customer at the head of the queue. Finally, we design an extension of a cutting-plane algorithm to optimize the stochastic version with recourse of the staffing problem for multi-skill call centers
    • …
    corecore